from datasets import load_dataset

# 加载 CSV 数据（可指定多个拆分）
dataset = load_dataset(
    "csv",  # 格式类型
    data_files={
        "train": r"D:\AI\dataset\Simplified_Chinese_Multi-Emotion_Dialogue_Dataset\Simplified_Chinese_Multi-Emotion_Dialogue_Dataset.csv",
        # "train": r"D:\AI\dataset\jd\train.csv",  # 训练集路径
        # "dev": r"D:\AI\dataset\jd\dev.csv"     # 测试集路径
    }
)

# 查看数据集结构（确认加载成功）
print(dataset)
# 输出类似：DatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 1000 }), test: ... })

# dataset.save_to_disk(r"D:\AI\dataset2\jd")
dataset.save_to_disk(r"D:\AI\dataset2\Simplified_Chinese_Multi-Emotion_Dialogue_Dataset")